iT邦幫忙

2022 iThome 鐵人賽

DAY 14
2

https://ithelp.ithome.com.tw/upload/images/20220928/201525291G0xljkBvf.png

前言:

到目前為止,我們已經知道了四種和 BigQuery 溝通的方法,也知道如何查詢的公共數據集

但是在我們大部分的使用情境,還是會需要上傳自己的資料。那麼,BigQuery 又吃哪些類型的資料呢? 我們繼續看下去吧!

我們在前面介紹 BigQuery 的時候,就有提到 BQ的好處是彈性大,沒錯,他支援非常多種的資料類型,下圖我們列出幾個常用的資料類型:

https://ithelp.ithome.com.tw/upload/images/20220928/20152529rSwSUq6PjG.png

資料類型:

Avro、Parquet和 ORC,這三個都是大數據文件的格式,並且是基於Hadoop文件系統優化出的存儲結構,關於這類型的數據請參考這裡

CSV相信大家都很熟,這裡就不再贅述。

JSON 也是很常使用的一種資料格式,JSON的全名是 JavaScript Object Notation ,主要是以 key value 的形式儲存,大概會長下面這個樣子:

https://ithelp.ithome.com.tw/upload/images/20220928/201525290Ix01pOlJ8.png

資料來源:

Google cloud storage:

在 GCP 上的服務,是 Object Storage 的形式,使用上存在配額限制,比如單個檔案不能大於 5TB。

Google cloud bigtable:

在 GCP 上的服務,是 NoSQL Wide column的形式。

Google drive:

這個我們平常也很常使用,不再贅述。

Azure blob:

在 Azure 上的服務,是 Object Storage 的形式,

AWS S3:

在 AWS 上的服務,是 Object Storage 的形式。

Object storage

其他注意事項:

關於 BigQuery 的 datatypes,請參考這裡

關於資料的存放位置:

BigQuery 的資料是存在不同的國家和城市,使用上需注意儲存區域地區,以確保相關的服務可以互相串接。

https://ithelp.ithome.com.tw/upload/images/20220928/20152529QSJDma6KiZ.png

https://ithelp.ithome.com.tw/upload/images/20220928/20152529mze5lGqx7i.png

Summary:

(1) BigQuery 支援的資料類型有非常多種格式,包含 Avro, parquet, ORC, JSON和 CSV
(2) BigQuery 支援的資料來源有很多種,包含 Google cloud storage, Google cloud bigtable, Google drive, Azure blob, AWS S3

Reference:

https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-csv

大數據文件格式揭祕:Parquet、Avro、ORC

GCP 儲存空間 (上):常見雲端儲存服務簡介與比較


上一篇
Day 13: BigQuery 的四種連接方式 - 方法四:Client libraries (官方建議) (實作)
下一篇
Day 15: [數據分析實作一] Step 1: 建立 Cloud SQL instance,並上傳 CSV
系列文
[GCP BigQuery] - 探索資料倉儲,開啟你的數位轉型之旅30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言